計劃外的數據中心中斷通常很常見——比它們應該的要普遍得多。對于運行該操作的管理員來說,數據中心故障既不方便又危險地昂貴。Uptime Institute 最近的一項調查估計,六分之一的數據中心遭受重大停機事件 的成本超過 100 萬美元。此外,48% 的數據中心中斷給運營商造成的損失在 100,000 美元到 100 萬美元之間。許多運營商沒有記錄他們經歷的較小的數據中心故障,許多運營商甚至承認,通過提高基礎設施彈性,他們會遇到更少的此類事件。通過堅持適當的維護任務并遵循正確的日常運作程序,可以防止大多數數據中斷。通過關注發生故障的常見原因,數據中心經理可以減少重大中斷的機會,從而節省時間和金錢。
數據中心失敗的 7 個常見原因
了解常見的數據中心故障場景是使您的數據中心免于災難性中斷的第一步。經常發生的事件包括:
1.備用電源不足: 數據中心出現故障的最常見原因是斷電。停電隨時可能發生。由于這種可能性,數據中心通常具有 額外的電源 ,以防它們的主要電源中斷。最常用的備用電源是發電機和電池。但是,當操作員沒有足夠頻繁地進行電源故障測試或更換電池時,就會出現問題。如果不采取必要的預防措施,您的備用電源可能在您需要時無法使用。
2.一次更改和更新太多: 管理員可能會發現在維護窗口期間進行盡可能多的更改以最大限度地提高未來進度是很有誘惑力的。但是,當短期內安排的任務過多時,管理員可能會急于完成任務以彌補時間上的不足。這樣做會導致可避免的錯誤。此外,通過一次實施太多更改,您將無法注意到哪些更改正在實際工作,從而使將來的故障排除變得更加困難。
3.維護窗口之外的更改: 有時可能會收到一個小的更改請求,并且您覺得可以在正式的數據中心更改流程之外輕松進行。通常情況下,它可以。然而,有時一個小的修改可能會產生巨大的影響,這可能會給數據中心的其他部分帶來災難性的后果。不遵循更新協議可能會導致數據中心出現意外中斷和巨額資金損失。
4.囤積舊硬件: 雖然所有硬件都可能在某個時候發生故障,但您保留舊設備的時間越長,它發生故障的可能性就越大。這些知識并不總是阻止關鍵數據中心應用程序由于它們在過時的系統上運行而出現故障。管理員必須確保他們隨時了解技術的更新和改進,以避免使用舊系統。
5.濕滅火系統: 數據中心最重要的設備可能會被水嚴重損壞。因此,大多數數據中心使用非水滅火系統。如果消防系統被觸發,非水滅火系統可防止設備損壞。盡管存在這種安全的解決方案,但許多較舊的數據中心仍在使用濕滅火系統,這使他們的設備面臨損壞和重大中斷的風險。
6.冷卻故障: 由于數據中心產生大量熱量, 有效的冷卻解決方案 對于防止設備過熱或縮短使用壽命至關重要。如果您的冷卻解決方案不能按預期工作,您的數據中心可能會遇到不穩定的溫度——它可能前一分鐘結冰,下一分鐘發出咝咝作響。未能實施備份冷卻程序并正確維護您當前擁有的冷卻程序可能會導致數據中心的生產力受到影響。
7.網絡安全威脅: 網絡威脅,包括網絡釣魚和勒索軟件攻擊,是導致數據中心停機的最危險原因之一。網絡攻擊者可以利用您組織內的弱點并訪問您的敏感數據,從而暴露重要信息并危及您的業務。
克服這些障礙的方法
您不必接受數據中心和網絡中斷作為您設施中的常規事件。通過適當的管理和以下預防措施,您可以顯著減少停機并最大限度地提高生產力:
1.最大限度地減少人為錯誤: 人為錯誤約占 計劃外停機的 22%。缺乏經驗可能會導致日常數據中心運營出現重大問題。通過為數據中心員工進行定期培訓和認證計劃,以確保您的團隊了解最佳實踐,從而領先一步。這樣做可以提高他們的技能,并為職業發展提供途徑。另一種控制人為錯誤的方法是提供并記錄完成復雜任務的分步指導。有了明確的指導方針,您的團隊可以提供更一致的工作質量。
2.為您的數據中心做好應對惡劣天氣的準備: 自然災害是不可避免的,但采取適當的預防措施可以最大限度地減少中斷的潛在影響。確保您的設施有一個 惡劣天氣應急計劃 ,并定期測試您的備用電源,以確保它們在您需要時能夠正常工作。
3.防止設備故障: 對您的硬件進行定期檢查,以確保其處于良好的工作狀態。用更強大和更高效的機器替換過時的設備。一臺有故障的機器可能是您數據中心的單點故障,但如果處理不當,可能會對整個設施產生影響。
4.投資不間斷電源 (UPS): UPS 可以在最壞的情況下為您提供浪涌保護電源,讓您的數據中心在您需要的時間內保持正常運行。此外,請始終檢查您的 UPS 是否有故障跡象或其他問題 - 25% 的數據中心停機時間可歸因于 UPS 故障。
5.考慮與信譽良好的數據中心進行托管: 托管公司的設計具有冗余電源功能和強大的冷卻系統。將您的服務器和網絡機器與另一個設施托管在一起有很多 好處 ,包括更好的正常運行時間可靠性、增強的安全性和對混合云服務的訪問。